Machine Learning Foundations - L5 Notes(上)

Contents

  1. 1. 一 Recap and Preview
    1. 1.1. 複習
    2. 1.2. Hypothesis set 的大小
    3. 1.3. 練習
  2. 2. 二 Effective Number of Lines
    1. 2.1. BAD event and M
    2. 2.2. 分類 hypothesis
    3. 2.3. 練習

章節名稱: training versus testing

一 Recap and Preview

複習

複習一下前面的章節,主要可以將學習拆成兩個問題:

  1. $E_{in}(g)$$E_{out}(g)$ 到底接不接近
  2. 要怎麼樣讓 $E_{in}(g)$ 變得更小

5-1-1

Hypothesis set 的大小

(Hoeffding’s Inequality)

$\vert{H}\vert = M$ , 也就是 Hypothesis set 的大小,會影響到上面的兩個問題。

$M$ 太小:

  1. $E_{in}(g)$$E_{out}(g)$ 不接近的機率很小 => GOOD
  2. 選擇不夠多,不一定能找到 $E_{in}(g)$ 很小的 => BAD

$M$ 太大:

  1. $E_{in}(g)$$E_{out}(g)$ 不接近的機率比較大 => BAD
  2. 選擇夠多 => GOOD

那無限多個 $M$ 就是不好的了嗎?(如 PLA 就是無限大的)

5-1-2

練習

5-1-3

$$\begin{aligned} &2\times {M}e^{-2\epsilon^2N} = \delta = 0.05 \\\\ &e^{-2\epsilon^2N} = \frac {\delta}{2M} \\\\ \end{aligned}$$

兩邊同取 $ln$

$$\begin{aligned} &-2\epsilon^2N = ln {(\frac {\delta}{2M})} \\\\ &N =- \frac {1}{2\epsilon^2}ln {(\frac {\delta}{2M})} = \frac {1}{2\epsilon^2}ln {(\frac {2M}{\delta})}\\\\ \end{aligned}$$

二 Effective Number of Lines

BAD event and M

5-2-1

BAD event: $E_{in}(h) 和 E_{out}(h) 相差很遠$

先回顧一下 Hoeffding’s Inequality 的部分,我們為了讓演算法自由挑選 hypothesis ,所以計算 BAD event 對某個 h 時的機率,再對 M 個發生 BAD 的取聯集,就可知道它們的上限(Union Bound)。

問題在於如果 M 是無限多時,用 union bound 算出來的值可能無限大或非常大,這樣就沒有意義了。

可以用 union bound 去算的假設是,每個 h 它們發生 BAD event 的 data set 是不太一樣的(不太會重疊)。

但事實上在兩個相近的 hypothesis 時,它們發生 BAD event 的 data set 很可能是相近的。
例如 PLA 中兩條相近的線,它們 大部分$E_{in}(h)$ 是一樣的。

它的圖形就像下圖右邊,圈圈是有很多重疊的。而我們的 union bound 並沒有考量到這個,所以造成了 over-estimating ,才會無法處理 M 是無限大的狀況。

而為了計算出重疊的部分,我們可以試著先將 無限多 的 hypothesis 分類成 有限多 的種類。

5-2-2

分類 hypothesis

5-2-3

從最簡單的開始看,資料只有 個點,而全部的線(h)可以分成兩種:

  • 讓 X 是叉
  • 讓 X 是圈

而有 個點時,(O,X),(X,O),(O,O),(X,X) 有四種。

接著來看 個點時:

5-2-4

5-2-5

可以發現會因為點的位置不同,種類數也不同。

個點:

5-2-6

乘二是因為圈的換成叉的又是另一種了。

5-2-7

我們可以總結出 effective number of lines 也就是有效的種類數:

maximum kinds of lines with respect to N inputs

而很顯然的每個點都有兩種可能,所以 $effective(N) \le 2^N$ ,再把本來式子裡的 M 取代掉。如果 $effective(N)$ 又小於 $2^N$ 很多,且 N 夠大(使 exp 那項下降),此時式子右邊就會接近零,也就是 BAD event 發生的機率非常小。

這樣在有無限多個 M 時,只要分類成有限的種類,就能學到東西了!

練習

5-2-8

五個點所能分出來最多的種類是? 22 ($\le 2^5$) 種
可以完成圈或叉再乘二即可。

(往後會再證明如何算出最大的種類)